XX. mendeko Euskararen Corpus estatistikoa

Testuingurua

Beraz, jarraitze-klaseak hitz batean ager daitezkeen morfemen arteko konbinazio posibleak definitzeko mekanismoaren oinarri dira.

Beraien adierazte-ahalmena txikia da eta, horregatik, kasu batzuetan beharrezkoa izango ez litzatekeen zenbait deskripzio-bikoizketa gertatu ohi da; morfemen arteko distantzia handiko menpekotasuna tratatzean, esaterako.

2.3. PROGRAMA

Programak bi modulu laguntzaile nagusi erabiltzen ditu: Fsp eta Lex.

Lehenengoak automataren lana egiten du, sarrera gisa karaktere-bikoteak onartzen dituelarik.

Horretarako, hasieraketan erregela bakoitzari dagozkion automatetatik egoera finituzko automata bakarra osatzen du, lerrokatu eta onargarri diren bikoteen multzoa lortzen du.

Lex modulu lexikoak lexiko-atzipenaren funtzioa betetzen du.

Horretarako, arbola moduan antolatutako azpilexikoetan banaturiko fitxategi bat dago sortuta, arbolaren adar bakoitza karaktere bat delarik, atzipen inkrementala lortuz.

Azpilexikoen arteko lotura jarraitze-klaseen bidez definitzen da.

Modulu hauek hizkuntzarekiko independente dira eta analisia nahiz sintesia egin dezakeen programa nagusi batetik deitzen dira.

Ereduaren konplexutasun konputazionala sakonki aztertzen da [Karttunen 83] eta [Barton 85]-en.

Biak bat datoz hizkuntzaren konplexutasunak analisi edo sorkuntzaren abiaduran eragin adierazgarririk ez duela diotenean.

3. EUSKARARAKO APLIKAZIOA

3.1. EUSKARAREN MORFOLOGIAREN DESKRIBAPEN LABURRA

Euskara hizkuntza eranskaria da, hau da, hitzak osatzeko hiztegi-sarrerak independenteki hartzen ditu funtzio desberdinetarako (kasua barne) beharrezkoak diren elementuak.

Konkretuki determinatzaileari, numeroari eta deklinabide-kasuari dagozkien afixuak ordena honetan eta independenteki hartzen dira.

Euskararen ezaugarri nagusienetako bat, inguruko hizkuntzetatik bereizten duena, kasuak dituen deklinabide-sistema baten bidez funtzionatzea da.

Determinatzailea, numeroa eta kasuaren flexioak izen-sintagma osoari aplikatzen zaizkio eta ez sintagmaren osagai bakoitzari, inguruan ditugun hizkuntza erromanikoetan gertatzen den bezala.

Euskal deklinabidea bakarra da, hau da, sarrera guztiei eransten zaien deklinabide-taula bakarra dauka.

Euskaraz aditz-sistema, hitz-elkarketa eta eratorpena aberatsak dira.

Horrek sarrera bakar batetik abiatuz lexiko-sorkuntza bideratzeko aukera ematen du.

3.2. ZERGATIK BI MAILAKO MORFOLOGIA?

Euskararen morfologia aberatsa denez formalismo ahaltsu bat aukeratu behar zen bere automatizazioari ekiteko.

Hasieran azaldu ditugu bi mailako morfologia formalismoaren ezaugarriak; baita berridazketa-erregelekiko dauzkan abantailak ere.

Gainera, azken urteotan bi mailako morfologia arrakastaz aplikatu zaio hainbat hizkuntzari, morfologikoki hain korapilatsu diren suomiera edo arabiera bezalako hizkuntzak ere tartean direla.

Suomieraz (hizkuntza eranskaria da), euskaraz gertatzen denaren antzekoa dugu.

Bi hizkuntzek antzeko tratamendua izan dezakete.

Dena den, euskararen kasuan unitate lexiko bakoitzak erro bakarra duenez sinpleagoa da.

Suomieraz, ordea, hori ez da beti gertatzen.

Deklinabideak antzeko funtzionamendua dauka bi hizkuntzetan; baita hitz-elkarketak eta eratorpenak ere.